Hệ thống RAG thực tiễn: Từ cơ sở dữ liệu tri thức đến Tăng cường truy xuất - Sinh lời: Vượt qua mốc đào tạo: Vì sao các mô hình ngôn ngữ lớn cần kiến thức bên ngoài

Một mô hình ngôn ngữ lớn có thể tạo ra ngôn ngữ một cách trôi chảy, nhưng khả năng trôi chảy không đồng nghĩa với độ tin cậy về mặt sự thật. Hạn chế cơ bản của một mô hình ngôn ngữ lớn là sự phụ thuộc vào bộ nhớ tham số—kiến thức bị đóng băng tại thời điểm quá trình huấn luyện kết thúc, được gọi là mốc đào tạo.

Tại sao các mô hình ngôn ngữ lớn thất bại khi hoạt động độc lập

RAG tồn tại vì nhiều câu hỏi thực tế phụ thuộc vào thông tin mà là riêng tư, mới nhất, được phiên bản hóa, cụ thể theo lĩnh vực, hoặc có thể kiểm tra được. Thiếu kiến thức bên ngoài, mô hình sẽ gặp phải:

Hạn chế về thời gian: Không thể biết được các sự kiện xảy ra sau khi huấn luyện.
Hạn chế truy cập: Không thể tiếp cận "dữ liệu tối" (tài liệu doanh nghiệp riêng tư).
Hạn chế khả năng truy vết: Thiếu đường đi có thể kiểm toán để đảm bảo trách nhiệm chuyên môn.

Thái độ mở sách

Thay vì buộc mô hình phải 'nhớ' mọi thứ thông qua việc huấn luyện lại tốn kém, chúng ta chuyển đổi kiến trúc để trước tiên truy xuất bằng chứng cụ thể từ một tập hợp tài liệu bên ngoài, cho phép mô hình ngôn ngữ lớn trả lời dựa trên bằng chứng đó. Điều này mang lại sự tự tin dựa trên bằng chứng thay vì sự tự tin mà không có bằng chứng.

Ứng dụng tương tác: Nguy cơ phát biểu sai sự thật

Phân tích nghiêm túc về các mốc đào tạo

Một nhà nghiên cứu pháp lý hỏi một mô hình ngôn ngữ lớn: 'Tóm tắt các sửa đổi năm 2024 đối với Luật Quyền riêng tư của California.' Huấn luyện mô hình đã kết thúc vào cuối năm 2023.

Câu hỏi

1. Mô hình lỗi 'nguy hiểm' nhất có thể xảy ra đối với một mô hình ngôn ngữ lớn cơ bản trong tình huống này là gì?

Câu trả lời:
Mô hình có thể đưa ra một bản tóm tắt nghe có vẻ hợp lý dựa trên dữ liệu năm 2020 hoặc 2023, trình bày nó như là bản 2024, bởi vì mục tiêu chính của nó là sự trôi chảy về token, chứ không phải kiểm tra sự thật.

Câu hỏi

2. Việc cung cấp một tài liệu PDF năm 2024 như là kiến thức bên ngoài thay đổi chế độ vận hành của mô hình như thế nào?

Câu trả lời:
Nó chuyển mô hình từ một người thi 'đóng sách' (phụ thuộc vào trọng số) sang một nhà nghiên cứu 'mở sách'. Mô hình 'đọc và báo cáo' văn bản được cung cấp, đảm bảo câu trả lời được căn cứ vào bằng chứng có thể kiểm chứng.

Câu hỏi

3. [Trả lời ngắn] Tóm tắt bài báo này bằng tiếng Anh đơn giản. (Ám chỉ phần Tổng quan Bài học được cung cấp).

Câu trả lời:
Bài báo nêu rõ sự chuyển dịch từ việc sinh văn bản bằng mô hình ngôn ngữ lớn cô lập sang các hệ thống RAG được căn cứ. Nó nhấn mạnh rằng độ tin cậy về sự thật đòi hỏi một quy trình nhập dữ liệu có chứa dữ liệu mô tả và phiên bản hóa để vượt qua hạn chế của dữ liệu huấn luyện bị 'đóng băng'.

Câu hỏi

4. [Trả lời ngắn] Viết một email lịch sự gửi giáo viên xin gia hạn.

Câu trả lời:
Tiêu đề: Yêu cầu gia hạn - [Tên bạn] - [Tên khóa học] Kính gửi Giáo sư [Họ tên giáo viên], Tôi hy vọng thầy/cô đang có một tuần làm việc hiệu quả. Tôi viết thư này để kính mong xin một khoản gia hạn ngắn cho bài tập [Tên bài tập] có hạn nộp vào ngày [Ngày gốc]. Do [nêu ngắn gọn lý do, ví dụ: một vấn đề sức khỏe bất ngờ], tôi cần thêm vài ngày để đảm bảo chất lượng bài làm đáp ứng tiêu chuẩn của khóa học. Liệu có thể nộp bài vào ngày [Ngày mới đề xuất] được không? Cảm ơn thầy/cô đã dành thời gian xem xét. Trân trọng, [Tên bạn]